A entregar de manera individual máximo el 24 de abril de 2018 23:59:59 CST (-0.5 por cada día de retraso) en tu carpeta alumnos/nombre_apellido/tarea_7
Con los datos que tenemos de flights queremos predecir el tiempo de retraso de salida DEPARTURE_DELAY
Eliminamos na
La variable respuesta es renombrada como `label y seleccionamos variables de interés
Transformación de los datos
Creación del pipeline
Declaración de los modelos a comparar
Se seleccionaron 3 algoritmos para realizar la predicción
Declaración del gridparams con hiperparámetros:
gridParamMap para modificar los parámetros de los algoritmos seleccionados, con 3 valores diferentes en 2 de los parámetros.Dividir el set en entrenamiento y pruebas (70 y 30)
Deberás ocupar 10 como valor de k en cross validation
Asignamos semilla
Se selccionaron los mejores parámetros por algoritmo por medio de un evaluador (Regression Evaluator)
¿Qué parametros resultaron mejor por algoritmo?
Los modelos probados fueron:
Linear Regression
Generalized Linear Regression (familia Gaussiana)
Generalized Linear Regression (familia Tweedie)
Con base en las métricas generadas y que se muestran a continuación podemos decir que el mejor modelo fue el tercero: Generalized Linear Regression con parámetro de regularización de 0.001 y un máximo de iteraciones de 2 y con la familia Tweedie. También pudimos notar que con los valores más bajos de regularización los errores disminuían y la \(R^2\) mejoraba. Finalmente, cabe señalar la gran similitud en las métricas entre el modelo de Regresión Lineal y Regresión Lineal Generalizado con kernel Gaussiano.
magic loop